估计X射线图像上的肺深度可以在临床常规期间提供精确的机会肺部体积估计,并提高现代结构胸部成像技术中的图像对比,如X射线暗场成像。我们提出了一种基于卷积神经网络的方法,允许每像素肺厚度估计和随后的总肺容量估计。使用从5250个真实CT扫描生成的5250个模拟Xco.NoRh,网络培训并验证了网络。此外,我们能够在真正的X线片上推断使用仿真数据训练的模型。对于45名患者,对标准临床射线照相进行定量和定性评估。基于患者对应的CT扫描来定义每个患者总肺体积的地面真理。 45个真实射线照片上的估计肺体积与地基体积之间的平均值误差为0.83升。核算患者直径时,误差会降至0.66升。辅助,我们预测了131 X射线照片的合成数据集上的肺部厚度,其中平均值误差为0.21升。结果表明,可以将在仿真模型中获得的知识转移到真正的X射线图像。
translated by 谷歌翻译
Intensive Care Units usually carry patients with a serious risk of mortality. Recent research has shown the ability of Machine Learning to indicate the patients' mortality risk and point physicians toward individuals with a heightened need for care. Nevertheless, healthcare data is often subject to privacy regulations and can therefore not be easily shared in order to build Centralized Machine Learning models that use the combined data of multiple hospitals. Federated Learning is a Machine Learning framework designed for data privacy that can be used to circumvent this problem. In this study, we evaluate the ability of deep Federated Learning to predict the risk of Intensive Care Unit mortality at an early stage. We compare the predictive performance of Federated, Centralized, and Local Machine Learning in terms of AUPRC, F1-score, and AUROC. Our results show that Federated Learning performs equally well as the centralized approach and is substantially better than the local approach, thus providing a viable solution for early Intensive Care Unit mortality prediction. In addition, we show that the prediction performance is higher when the patient history window is closer to discharge or death. Finally, we show that using the F1-score as an early stopping metric can stabilize and increase the performance of our approach for the task at hand.
translated by 谷歌翻译
我们对会话分析的问题及其在健康领域的应用感兴趣。认知行为疗法是心理疗法的结构化方法,使治疗师能够帮助患者识别和修改恶意思想,行为或行动。可以使用工作联盟库存观察者评级的缩短来评估这项合作的工作 - 12个项目涵盖任务,目标和关系 - 对治疗结果具有相关的影响。在这项工作中,我们研究了该联盟库存与患者与心理治疗师之间的口头对话(会议)之间的关系。我们已经提供了八个星期的电子疗法,收集了他们的音频和视频通话课程,并手动转录它们。专业治疗师对口语对话进行了注释和评估。我们已经调查了语音和语言特征及其与WAI项目的关联。功能类型包括转弯动力学,词汇夹带以及从语音和语言信号中提取的对话描述符。我们的发现提供了有力的证据,表明这些特征的一部分是工作联盟的强有力指标。据我们所知,这是一项针对言语和语言来表征工作联盟的第一项和新颖的研究。
translated by 谷歌翻译
对于痴呆症筛查和监测,标准化测试在临床常规中起着关键作用,因为它们旨在通过测量各种认知任务的性能来最大程度地降低主观性。在本文中,我们报告了一项由半标准化病史组成的研究,然后进行了两个标准化的神经心理学测试,即SKT和CERAD-NB。这些测试包括基本任务,例如命名对象,学习单词列表,以及广泛使用的工具,例如MMSE。大多数任务是在口头上执行的,因此应适用于基于成绩单的自动评分。对于第一批30例患者,我们根据手动和自动转录分析了专家手动评估与自动评估之间的相关性。对于SKT和CERAD-NB,我们都可以使用手动笔录观察到高至完美的相关性。对于某些相关性较低的任务,自动评分比人类参考更严格,因为它仅限于音频。使用自动转录,相关性降低,并且与识别精度有关;但是,我们仍然观察到高达0.98(SKT)和0.85(CERAD-NB)的高相关性。我们表明,使用单词替代方案有助于减轻识别错误,并随后改善与专家分数的相关性。
translated by 谷歌翻译
“总机基准”是自动语音识别(ASR)研究中众所周知的测试集,为声称人类水平转录精度的系统建立了创纪录的性能。这项工作突出了该评估的鲜为人知的实际考虑,这表明了单词错误率(WER)的重大提高,通过纠正参考转录并偏离官方评分方法。在这个更详细和可再现的方案中,即使是商业ASR系统也可以评分低于5%,并且研究系统的既定记录降低到2.3%。提出了一个替代的成绩单精度指标,该指标不会惩罚缺失,并且似乎对人类与机器性能更具歧视性。尽管商业ASR系统仍低于此阈值,但研究系统被证明可以清楚地超过商业人类言语识别的准确性。这项工作还使用标准化的评分工具来探讨通过在替代方案列表中选择最佳的计算Oracle WER。将短语替代表示形式与话语级n-tesp列表和单词级数据结构进行比较。使用密集的晶格并添加量量表的单词,这使Oracle达到0.18%。
translated by 谷歌翻译
标准化测试在检测认知障碍中起着至关重要的作用。先前的工作表明,使用标准化图片描述任务中的音频数据可以自动检测认知障碍。提出的研究超出了这一点,评估了我们对来自两个标准化神经心理学测试的数据,即德国SKT和德国版本的CERAD-NB,以及患者与心理学家之间的半结构化临床访谈。对于测试,我们关注三个子测试的语音记录:阅读数字(SKT 3),干扰(SKT 7)和口头流利度(Cerad-NB 1)。我们表明,标准化测试的声学特征可用于可靠地区分非受损的人的认知受损个体。此外,我们提供的证据表明,即使是从访谈的随机语音样本中提取的特征也可能是认知障碍的歧视者。在我们的基线实验中,我们使用开米的功能和支持向量机分类器。在改进的设置中,我们表明使用WAV2VEC 2.0功能,我们可以达到高达85%的精度。
translated by 谷歌翻译
本文经验研究了不同数据拆分和分裂策略对功能障碍检测系统性能的影响。为此,我们使用具有分类头的WAV2VEC 2.0模型以及支持向量机(SVM)以及从WAV2VEC 2.0模型中提取的功能进行实验。我们使用播客(SEP-28K)数据集中的口吃事件的不同非说明书和说话者的分裂训练和评估系统,以阐明结果W.R.T.的可变性。使用使用的分区方法。此外,我们表明SEP-28K数据集仅由少数扬声器主导,因此很难评估。为了解决这个问题,我们创建了Sep-28k扩展(Sep-28k-e),其中包含半自动生成的扬声器和性别信息,为SEP-28K语料库,建议不同的数据拆分,每个数据分配有用,可用于评估方法的其他方面用于功能障碍检测。
translated by 谷歌翻译
口吃是一种多种言语障碍,会损害个人的沟通能力。口吃(PWS)的人经常使用语音疗法来应对自己的病情。改善具有这种非典型语音或跟踪语音疗法的人的语音识别系统将需要能够检测功能障碍的系统,同时能够检测到治疗中获得的语​​音技术。本文表明,用于在含有口吃的语音上结结巴巴的口吃的微调2VEC 2.0 [1],结合多任务的学习,增强了通用Purepose Wav2VEC 2.0的有效性,以检测语音在语音中检测说话的功能;内部和跨语言。我们通过训练支持向量机分类器评估我们的FluencyBank的方法[2]和以德国治疗为中心的Kassel Fluency(KSOF)[3]数据集[3]数据集,该数据集使用六种不同结肠相关的事件类型中提取的功能:块:块: ,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。使用来自微调模型的嵌入式嵌入会导致相对分类的性能增长到高达27%W.R.T. F1得分。
translated by 谷歌翻译
口吃是一种复杂的言语障碍,会对个人有效沟通的能力产生负面影响。口吃(PWS)的人通常在这种情况下遭受很大的痛苦,并通过治疗寻求帮助。流利的塑形是一种治疗方法,PWSS学会修改他们的语音以帮助他们克服口吃。即使在治疗后,掌握这种语音技术也需要时间和练习。治疗后不久,对成功的评估很高,但复发率很高。为了能够长期监视语音行为,检测口吃事件和语音修改的能力可以帮助PWSS和语音病理学家跟踪流利程度。监测可以通过检测流利度的失误来提早进行干预的能力。据我们所知,没有公共数据集可用,其中包含接受口吃疗法的人的演讲,这些疗法改变了口语风格。这项工作介绍了Kassel Fluency(KSOF),这是一项基于疗法的数据集,其中包含超过5500个PWSS。这些剪辑标记为六种与口吃相关的事件类型:块,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。音频是在Kasseler Stottertherapie研究所期间记录的。该数据将根据要求提供用于研究目的。
translated by 谷歌翻译
个人叙述(PN) - 口语或书面 - 来自自己经验的事实,人,活动和思想的回忆。情感识别和情感分析任务通常在话语或文档级别定义。然而,在这项工作中,我们专注于情感载体(EC)定义为最佳解释叙述者的情绪状态(“父亲失去”,“让我选择”)。一旦提取,这种EC可以提供用户状态的更丰富表示以改善自然语言理解和对话建模。在以前的工作中,已经表明可以使用词法特征来识别EC。但是,口语叙述应该提供对背景的更丰​​富的描述和用户的情绪状态。在本文中,我们利用基于文字的声学和文本嵌入以及早期和晚期融合技术,用于检测口语叙述中的ECS。对于声学词级表示,我们使用在单独的语音情绪上进行剩余的剩余神经网络(Reset)并进行微调以检测EC。不同融合和系统组合策略的实验表明,晚期融合导致这项任务的重大改进。
translated by 谷歌翻译